iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0
AI & Data

AI、機器學習以及深度學習的語言學應用系列 第 17

Day 17 - Part-of-Speech Tagging(POS Tagging)

  • 分享至 

  • xImage
  •  

昨天介紹 Hidden Markov Model(HMM)的時候,有稍微提到文本當中的「詞性」是我們看不到的東西,因此可以用 HMM 這種模型來去推測每個詞的詞性。

因此,今天就要來講講 Part-of-Speech Tagging(POS Tagging),詞性標註。


POS Tagging 定義

  • POS Tagging 是對句子中每個詞彙 (token) 指派一個詞性標籤(如名詞、動詞、形容詞等)
  • 它是一個序列標註 (sequence labeling) 任務:輸入為詞序列,輸出為對應長度的標籤序列
    • 英文當中有一個常見的詞性標籤集(Tagset)是 The Penn Treebank,他常常被用來標記語料庫

為什麼要做 POS Tagging?

  • 「詞性」是許多 NLP 任務,像是句法分析、或是之前介紹過的 NER 命名實體辨識等的基礎特徵
  • 在語音識別、機器翻譯等任務當中,詞性標籤能提供一些句法線索,可以幫助機器模型理解句子的結構

POS Tagging 舉例

假設有這個句子:

The water is blue.

我們把它詞性標註過後,就會變成:

  • The/DT
  • water/NN
  • is/VBZ
  • blue/JJ

要注意的是很多字都是「歧義字」,也就是他們有不同的意思,甚至是不同詞性的意思,像是「book」這個字可以同時是名詞(書),也可以是動詞(預訂)

詞性標註這項任務也需要解決這項問題,可能的方式包含像是利用「頻率」的方式來決定一個詞的詞性

POS Tagging 的類型

  1. Rule-based
  • 這種方式是根據一些人工建立的規則來進行詞性標記
  • 可能會利用像是英文詞當中的結尾,像是 -tion 這種結尾可能就會是名詞
  1. Statistical
  • 這個標註的方式是利用機率模型,運用機器學習的技術,去學習大型語料庫當中的 pattern
  • 它標註詞性的方式,是利用該詞本身以及其周遭的語境,來計算詞性的可能性(likelihood)
  • 常見的技術包含 HMM 跟 CRF
  1. Transformation-based
  • 這種方式雖然也是基於規則,但是不同的點在於,它會根據一些額外的規則來更新詞性
  • 一開始,它會先給字詞詞性標記,然後再根據進一步的規則,像是在句子開頭的名詞後面會是動詞,去把原本的詞性更新(前面有講到 book 這個詞可以是動詞或是名詞,最常出現的可能就是名詞的意思,但是套用這邊講的規則,如果它放到句子開頭的名詞後面,就會被更新為動詞)

小結

POS Tagging 是自然語言處理當中的一項基礎任務,也是 HMM 的常見應用,它可以讓機器理解詞在句子中的語法角色,並幫助後續更進階的分析任務。


上一篇
Day 16 - Hidden Markov Models(HMM)
下一篇
Day 18 - Beam Search Algorithm
系列文
AI、機器學習以及深度學習的語言學應用20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言